Otimização Convexa: Da Verossimilhança Estatística aos Problemas Convexos

A inferência estatística pergunta: "Dado este conjunto de dados, quais são os parâmetros subjacentes mais prováveis?" Este slide conecta essa pergunta com Otimização Convexa. Transformamos a noção probabilística de verossimilhança em um programa estruturado, mostrando que, sob condições de log-concavidade, encontrar a melhor estimativa é equivalente a resolver um problema de otimização convexa.

O Quadro da Verossimilhança

A função de verossimilhança é a distribuição de probabilidade $p_x(y)$ considerada como uma função do parâmetro $x$ para uma amostra observada fixa $y$. Para estimar $x$, empregamos estimação de máxima verossimilhança (ML): escolhendo o valor que torna os dados observados mais prováveis.

$$\hat{x}_{ml} = \text{argmax}_x p_x(y) = \text{argmax}_x l(x)$$

Para eficiência computacional, usamos a função de log-verossimilhança, $l(x) = \log p_x(y)$. Como o logaritmo é uma função monotonicamente crescente, preserva a localização do máximo enquanto transforma produtos (de observações independentes) em somas fáceis de gerenciar.

O Programa de Otimização de MLE (7.1)

Formalizamos a estimativa como um programa matemático:

$$\begin{array}{ll} \text{maximize} & l(x) = \log p_x(y) \\ \text{subject to} & x \in C \end{array}$$ (7.1)

Este programa é um problema de otimização convexa se:

A função de log-verossimilhança $l$ é concava para cada valor de $y$.
O conjunto viável $C$ (informação prévia) é descrito por restrições lineares de igualdade e desigualdades convexas.

Integração de Restrições e Informações Prévias

A estimativa de máxima verossimilhança exige redefinir $p_x(y)$ como zero para $x \notin C$ para impor explicitamente restrições físicas ou prévias. No espaço de otimização, isso significa que a função de log-verossimilhança recebe o valor $-\infty$ para parâmetros $x$ que violam essas restrições, criando efetivamente uma barreira intransponível para o otimizador.

🎯 Princípio Central

A transição de "Máxima Verossimilhança" para "Programa Convexo" depende da concavidade da densidade logarítmica. Se o ruído ou a distribuição for log-concava, a estimativa estatística torna-se uma tarefa de otimização globalmente resolvível.

PERGUNTA 1

Por que a função de log-verossimilhança $l(x)$ é preferida em relação à verossimilhança $p_x(y)$ na otimização?

Ele altera a localização do máximo para um ponto mais estável.

É uma função monotonicamente crescente que transforma produtos em somas.

Garante que o problema seja sempre linear.

Elimina a necessidade de restrições.

PERGUNTA 2

Em quais condições o problema de MLE (7.1) é considerado um problema de otimização convexa?

Quando $p_x(y)$ é uma função linear de $x$.

Quando $l(x)$ é convexa e $C$ é qualquer conjunto.

Quando $l(x)$ é côncava e $C$ é definido por igualdades lineares e desigualdades convexas.

Somente quando o ruído é gaussiano.

PERGUNTA 3

Se um parâmetro $x$ viola uma restrição prévia ($x \notin C$), qual valor é atribuído ao log-verossimilhança?

$+\infty$

$-\infty$

PERGUNTA 4

Verdadeiro ou Falso: A MLE para uma densidade log-concava com restrições convexas sempre tem um máximo global único, se existir.

Verdadeiro

Falso

PERGUNTA 5

Considere uma distribuição exponencial com parâmetro $\lambda$. Se sabemos que $\lambda \ge 5$ mas os dados sugerem $\lambda = 2$, onde estará a MLE restrita?

Em $\lambda = 2$

Em $\lambda = 5$

O problema não tem solução.

Em $\lambda = 0$